doi:10.3788/gzxb20124111.1354

# 基于 CNN 的红外图像边缘检测算法的 FPGA 实现

王巍,安友伟,黄展,丁锋,杨铿,白晨旭

(重庆邮电大学光电工程学院,重庆400065)

摘 要:提出了一种以现场可编程门阵列为硬件处理器实现基于细胞神经网络的红外图像边缘检测方法.首先利用 simulink 的算法行为特性搭建红外图像输入模块,获得相关的红外图像头信息并对红外图像像素值范围进行相应变化,然后根据细胞神经网络模板所创建的查找表设计单个细胞元软核,再利用细胞神经网络阵列的规则性和互联的局域性,将单个细胞元软核扩展成细胞神经 网络阵列.最后采用 modelsim 将细胞神经网络阵列与红外图像输入、输出模块相关联,从而达到实 时处理的效果.实验结果表明:基于现场可编程门阵列为硬件处理器平台实现的细胞神经网络对红 外图像进行边缘检测取得了较好的效果,且与 MATLAB 软件仿真的结果进行对比得出两者只有 极其微小的差别.在 Xilinx 公司 Virtex-6 系列的现场可编程门阵列平台上,综合后占用极少资源 的情况下得到 142.693 MHz 的最高频率,并且达到了 2.378 Mpixels/sec 处理速度.

关键词:红外图像;边缘检测;细胞神经网络;现场可编程门阵列

**中图分类号**:TN492 文献标识码:A

## 0 引言

图像边缘检测技术广泛地应用于图像边缘信息 提取.图像边缘信息是图像的基本和重要的特征,是 图像跟踪、识别、分割等进一步处理的基础和计算机 视觉的重要内容.由于红外图像探测系统、监控系统 具有不受气候影响和昼夜工作等特点,所以红外图 像边缘检测广泛地应用于民用或者军用的探测系统 和监控系统.国内外研究人员一直关注这方面的研 究.J.W. Davis 等人采用两阶段模板方法检测跟踪 人体在广域红外热成像图<sup>[1]</sup>.Basturk 等人将克隆 算法和细胞神经网络算法相结合应用于图像的边缘 检测<sup>[2]</sup>.

尽管这些方法都取得了良好的效果,但是在硬件实现上却遇到了很大的困难.1993年,J.M. Cruz 等人实现的细胞神经网络通用机体系结构芯片.后来,G. Linan等人将 CNN 理论用于 VLSI 设计,并 设计出了芯片 ACE4K、ACE16K<sup>[3]</sup>,虽然这些芯片 达到了 128×128 像素解析度和 4T 操作/s 的运算 速度,但是其计算准确度只能达到 8bits.而 FPGA 实现的数字 CNN 芯片不但可以达到需要的准确 度,而且其模板大小、细胞阵列大小和细胞的层数都 是可以根据需求配置,具有很强的灵活性和广泛的 应用前景<sup>[47]</sup>.本文采用 simulink 搭建红外图像输 文章编号:1004-4213(2012)11-1354-5 入输出模块,读取红外图形头信息并对像素值进行 预处理,然后通过 modelsim 与由查找表设计的细胞 神经网络 IP 核硬件相关联,从而建立软硬件相结合 的红外图形边缘检测实时处理系统.

## 1 红外检测系统总体设计

按照模块交叉最小的原则对整个红外图像处理 系统进行划分,如图1所示.这种划分方式将图像输 入、模板配置、图像输出模块合并到细胞神经网络功 能模块,使得系统结构的复杂度减小,降低了模块间 的信息传输.针对不同的红外图像,只需更改模板配 置模块参量即可,大大提高了系统的灵活性.



图1 系统总体结构图

Fig. 1 The architecture of IR image detection system

根据上述系统结构,将 simulink 实现算法行为<sup>[8]</sup>和stateflow实现控制行为相结合,搭建了如图2 所示的仿真模型.整个系统主要由图像输入、输出状态机模块和细胞神经网络模块组成.细胞神经网络

基金项目:国家自然科学基金(No. 1234546, No. 61102075)资助

**第一作者**:王巍(1967-),男,教授,博士,主要研究方向为半导体光电器件及系统研究、集成电路设计. Email: wangwei@cqupt.edu.cn **收稿日期**:2012-06-20;**修回日期**:2012-08-08



图 2 红外图像边缘检测 simulink 仿真模型 Fig. 2 The simulink model for IR image edge detection

模块与 modelsim 所设计的细胞元 IP 和 simulink 模型相融合,并进行联合仿真,从而达到实时处理的效果.

### 2 基于细胞神经网络的红外图像处理

细胞神经网络是一种将神经网络和细胞自动机 (CA)相结合的阵列处理器,具有高速的并行处理能 力、易于可编程逻辑阵列和 VLSI 的硬件实现的特 点<sup>[9-10]</sup>.在细胞神经网络中,每个胞元只与相邻的胞 元连接及传递信息.对于 *M*×*N* 的细胞神经网络结 构来说,胞元的动态方程为

$$C \frac{dx_{ij}(t)}{dt} = -\frac{x_{ij}(t)}{R_x} + \sum_{k,l \in N_{ij}(r)} A_{kl} y_{kl}(t) + \sum_{k,l \in N_{ij}(r)} B_{kl} u_{kl} + I_{ij}$$
(1)

式中: $A_{kl}$ 、 $B_{kl}$ 是每个胞元的反馈模板和前馈模板;  $R_x$ 是线性电阻值; I是阈值;  $u_{kl}$ 、 $x_{ij}$ 、 $y_{kl}$ 表示胞元的 输入、状态、输出值; 1 < i < M; 1 < j < N.

由式(1)可知,整个细胞神经网络的功能由 A<sub>kl</sub>、 B<sub>kl</sub>、I 决定.细胞元的动态结构图如图 3 所示.





由于细胞神经网络处理图像的输入像素值在 [-11]之间,而一般的灰度图像的像素值在 [0255]之间且包含图像头,所以在细胞元进行图像 处理之前,从图像文件中读取相关的图像头信息,再 根据图像头信息提取图像的像素值部分,然后利用 式(2)对输入像素值范围进行变化<sup>[11]</sup>.像素点由细胞元模块处理后得到了二值图像,最后由 simulink 组建的 char 输出模块根据之前获得的图像头信息 组建及显示处理后的二值图像.

$$u_{ij} = 1 - 2g_{ij} / 255 \tag{2}$$

式中: $g_{ij} \in \{0, 1, 2, \cdots, 255\}; |u_{ij}| \leq 1$ 

#### 2.1 细胞元设计

由于细胞神经网络阵列的规则性和互联的局域 性,所以整个 CNN 网络只需设计单个胞元<sup>[12-13]</sup>.针 对 CNN 模板尺寸设计问题,由于 CNN 模板的尺寸 不会影响算法对硬件的设计,但是随着模板尺寸变 大会增加硬件资源,所以从硬件设计占用的资源考 虑,论文采用 3×3 的设计模板,即模板 A、模板 B 都是 3×3 的矩阵.根据 CNN 的状态方程可知

$$x(n+1) = x(n) + \frac{1}{C} \left[ -\frac{1}{R_x} x(n) + \sum A_y(n) + \sum Bu + I \right]$$
(3)

将常量  $C_{x}$ , 设为 1;定义 y(n)、u 为 8 位的二 进制补码小数形式如式(4)、(5)所示(最高位为符号 位,1 为负、0 为正);A、B、I 为 12 为二进制整数小 数混合形式(最高位为符号位,8~11 位为整数位, 0~7位为小数位).

$$y(n) = -y_0(n) + \sum_{i=1}^{7} y_i(n) 2^{-i}$$
(4)

$$u = -u_0 + \sum_{j=1}^{i} u_i 2^{-j}$$
(5)  
樫式(4) (5) 代 人式(3) 得

$$x(n+1) = -[y_{10}(n)A_1 + \dots + y_{90}(n)A_9 + u_{10}B_1 + \dots + u_{90}B_9] + [y_{11}(n)A_1 + \dots + y_{91}(n)A_9 + u_{11}B_1 + \dots + u_{91}B_9]2^{-1} + \dots [y_{18}(n)A_1 + \dots + y_{98}(n)A_9 + u_{18}B_1 + \dots + u_{98}B_9]2^{-8} + I$$
(6)  
为了避免使用乘法器而影响系统速度,我们将

已经设计好的模板 *A*、*B* 建立两张分别由 *y*(*n*)、*u* 进行寻址的查找表(如表 1 所示).

| 表1 查 | 找表 |
|------|----|
|------|----|

| Table 1 Look-up table |  |            |                      |  |  |
|-----------------------|--|------------|----------------------|--|--|
| $y_1(n)$              |  | $y_{9}(n)$ | Value in LUT         |  |  |
| 0                     |  | 0          | 0                    |  |  |
| :                     |  | :          | :                    |  |  |
| 1                     |  | 1          | $B_1 + \cdots + B_9$ |  |  |
| $u_1$                 |  | $u_9$      | Value in LUT         |  |  |
| 0                     |  | 0          | 0                    |  |  |
| :                     |  | :          | :                    |  |  |
| 1                     |  | 1          | $A_1 + \cdots + A_9$ |  |  |

从结构设计方面分析,根据 CNN 的原理,待处 理像素点与他周围的 8 个像素点相关.每次处理前 先从图像存储器中读入 9 个像素点,然后根据读入 的像素灰度值作为地址从由模板 A、B 建立的查找 表中读出相应的数值,最后通过加法器和移位器计 算出 x,并得出 y.根据上述的分析,搭建如图 4 所示 的结构图.这种结构框架采用串行数据流的处理形 式,使得处理过程中的存储器共用,节省了大量的



Fig. 4 IP core of the CNN cell

FPGA 资源.

## 3 实验结果分析与讨论

依据上述对系统结构功能的分析,我们搭建了 二进制编码方式的状态转换图,清晰地表明了整个 细胞元硬件设计的逻辑控制关系和时序关系,如图 5 所示.根据这一状态转换图,由 modelsim 仿真得 到了预期的功能和时序逻辑要求,如图 6 所示.



图 5 状态图 Fig. 5 State graph

用 Verilog HDL 硬件描述语言在 ISE12.3 软件环 境下在 Xilinx 公司的 Virtex-6 系列的 FPGA 平台 上进行设计.为了节省 FPGA 资源的占用,整个 CNN 设计中的变量均采用定点数表示.表 2 中说明 了各个变量的定点数位宽,其中[a+b+c]表示:变 量数值包括 a 为符号位、b 为整数位和 c 为小数位.

表 2 变量定点数位宽 Table 2 The bit width of the variable

| Variable                 | Bit wide    |
|--------------------------|-------------|
| Input data               | 8,[1+0+7]   |
| the values of the states | 12, [1+4+7] |
| Output data              | 8, [1+0+7]  |
| Template                 | 12, [1+4+7] |



图 6 IP 核仿真图 Fig. 6 The simulation result of the IP core 设计中采用了自顶向下的设计思路,各模块采

对 240×360 的红外图像(如图 7 所示)进行边 缘检测处理,得到了如图 8 所示的仿真结果.从仿真 结果来看,本文所设计的基于 CNN 的红外图像边 缘检测系统取得了较好的效果.表 3 详细显示了综 合后所占用的资源.由此看出,本文采用的 CNN 设 计方法在占用了非常少的资源的情况下达到了 142. 693 MHz 最高工作频率,并且达到了 2.378 Mpixels/sec的处理速度.



图 7 实验用红外图像

Fig. 7 The origin IR image used in experiment



```
图 8 FPGA 硬件仿真对红外图像的处理结果
Fig. 8 The result image from the FPGA hardware
```

表 3 综合后电路所占用的 FPGA 资源 Table 3 The FPGA resource used in synthesized circuit

| uor |  | ine | •• | 0.1 | resoure | e useu |   | 5,11 | thesi | Leu | en  | cui |
|-----|--|-----|----|-----|---------|--------|---|------|-------|-----|-----|-----|
|     |  | * * |    |     |         | * *    | 1 |      |       | • 1 | 1 1 |     |

| Logic Utilization | Used   | Available |
|-------------------|--------|-----------|
| Slice Registers   | 622    | 301 440   |
| Slice LUTs        | 36 398 | 150 720   |
| LUT-FF pairs      | 547    | 36 473    |
| Block RAM/FIFO    | 434    | 416       |
| DSP48E1s          | 6      | 768       |
|                   |        |           |

对比软件仿真与硬件仿真结果,可发现软件仿 真的结果(如图9所示)与硬件仿真的差别不明显,



图 9 matlab 对红外图像的处理结果

Fig. 9 The result image from the matlab simulation

硬件系统的设计达到了红外图像处理的实时性要求.

## 4 结论

本文采用 Xilinx 公司 V6 系列的 FPGA 为硬件 处理器实现基于细胞神经网络的红外图像边缘检测 算法.采用基于模板建立的查找表结构,设计出了基 于 CNN 算法的胞元 IP 核,将 FPGA、modelsim 与 simulink 联合搭建实现整个系统的实时仿真.在 FPGA 器件上实现时,硬件系统在占用非常少的资 源的情况下达到了 142.693 MHz 的最高工作频率 以及 2.378 Mpixels/sec 的处理速度,因此可实现对 红外图像边缘检测算法的实时处理,可应用于基于 红外图像的目标识别、跟踪等.在未来的研究中,可 以在 IP 核设计结构中加入流水线,或者从查找表的 设计结构入手,进一步提高硬件的处理速度.

#### 参考文献

- [1] DAVIS J W, KECK M A. A two-stage template approach to person detection in thermal imagery[C]. IEEE workshops on Application of Computer Vision. Breckenridge, 2005: 364-369.
- [2] BASTURK A, GUNAY E. Colonel selection algorithm based cloning template learning for edge detection in digital images with CNN[C]. Signal Processing, IEEE Communication and Applications Conference, Aydin, 2008: 1-4.
- LINAN G, VAZQUEZ A R, ESPEJO S, et al. ACE16K: a 128×128 focal plane analog processor with digital I/O[C]. Proceedings of the 2002 7th IEEE International Workshop on Cellular Neural Networks and Their Applications, CA, 2002: 132-139.
- [4] KISS A, NAGY Z. Computational fluid flow simulation on body fitted mesh geometry with FPGA based emulated digital cellular neural networks[C]. 12th International Workshop on Cellular Nanoscale Networks and Their Applications, Berkeley, CA, 2010: 1-6.
- [5] TUKEL M, YALCIN M E. A new architecture for Cellular Neural Network on reconfigurable hardware with an advance memory allocation method[C]. 12th International Workshop on Cellular Nanoscale Networks and Their Applications, Berkeley, CA, 2010: 1-6.
- [6] MARTINEZ-ALVAREZ J J, TOLEDO-MOREO J, GARRIGOS-GUERRERO J, et al. A multi-FPGA distributed embedded system for the emulation of Multi-Layer CNNs in real time video applications[C]. Cellular Nanoscale Networks and Their Applications. Berkeley, CA, 2010: 1-5.
- PALAZZO S, MURARI A, VAGLIASINDI G, et al. Image processing with cellular nonlinear networks implemented on field-programmable gate arrays for real-time applications in nuclear fusion[J]. Review of Scientific Instruments, 2010, 81(8): 1-10.
- [8] SCHLOTTMANN C R, PETRE C, HASLER P E. A highlevel simulink-based tool for FPAA configuration[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2012, 20(1): 10-18.
- [9] SLAVOVA A, RASHKOVA V. A novel CNN based image denoising model[C]. Circuit Theory and Design (ECCTD), Linkoping, 2011, 226-229.

- [10] DENG Shao-jiang, TIAN Yuan, HU Xi-peng. Application of new advanced CNN structure with adaptive thresholds to color edge detection [J]. Communications in Nonlinear Science and Numerical Simulation, 2012, 17 (4): 1637-1648.
- [11] WANG Huai-yin. Cellular neural network application in image processing technology research[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2007. 王怀颖. 细胞神经网络在图像处理中的应用技术研究[D].

南京:南京航空航天大学,2007.

- [12] MALKI S. On Hardware Implementation of Discrete-Time Cellular Neural Networks [D]. Lund: Lund University, 2008.
- [13] CHAKRADHAR S, SANKARADAS M, JAKKULA V, et al. A dynamically configurable coprocessor for convolutional neural networks[C]. International Symposium on Computer Architecture, Saint-Malo, 2010: 247-257.

## The Implementation of Infrared Image Edge Detection Algorithm Based on CNN on FPGA

WANG Wei, AN You-wei, HUANG Zhan, DING Feng, YANG Keng, BAI Cheng-xu

(College of Electronics Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China)

Abstract: A novel infrared image edge detection algorithm based on cellular neural networks on FPGA is proposed. First, the infrared image input module is to build with simulink. The relevant information of infrared image head is acquired, and the infrared image pixel value range is adjusted. Then CNN IP core is designed by lookup table which is created by the template of cellular neural networks. With the regularity and interconnection locality of cellular neural network array, the CNN IP core will be expanded into the cellular neural network array. Then the cellular neural network array is related with the infrared image input and output module by modelsim, so that the infrared image will be processed in real time. The experimental results showed: In the field programmable gate array hardware processor platforms such as the Virtex-6 FPGA of the Xilinx, the infrared image edge detection algorithm will be implementationed with cellular neural networks. The highest frequency of 142. 693MHz is got, and the system processing speed of 2. 378Mpixels/sec is reached.

Key words: Infrared image; Edge detection; CNN; FPGA